Co-clustering de données mixtes à base des modèles de mélange
نویسندگان
چکیده
Résumé. La classification croisée (co-clustering) est une technique non supervisée qui permet d’extraire la structure sous-jacente existante entre les lignes et les colonnes d’une table de données sous forme de blocs. Plusieurs approches ont été étudiées et ont démontré leur capacité à extraire ce type de structure dans une table de données continues, binaires ou de contingence. Cependant, peu de travaux ont traité le co-clustering des tables de données mixtes. Dans cet article, nous étendons l’utilisation du co-clustering par modèles à blocs latents au cas des données mixtes (variables continues et variables binaires). Nous évaluons l’efficacité de cette extension sur des données simulées et nous discutons ses limites potentielles.
منابع مشابه
Modèles de mélanges topologiques pour la classification de données catégorielles et mixtes
Résumé. Cet article présente une méthode basée sur les cartes auto-organisatrices probabilistes dédiées à la classification non supervisée et la visualisation de données catégorielles et des données mixtes contenant des composantes quantitatives et binaires. Pour chacun de ces types de données, nous proposons un formalisme probabiliste dans lequel les unités de la carte topologique sont représe...
متن کاملClustering high-throughput sequencing data with Poisson mixture models
In recent years gene expression studies have increasingly made use of next generation sequencing technology. In turn, research concerning the appropriate statistical methods for the analysis of digital gene expression has flourished, primarily in the context of normalization and differential analysis. In this work, we focus on the question of clustering digital gene expression profiles as a mea...
متن کاملFinite mixture models for exponential repeated data
The analysis of finite mixture models for exponential repeated data is considered. The mixture components correspond to different possible states of the statistical units. Dependency and variability of repeated data are taken into account through random effects. For each component, an exponential mixed model is thus defined. When considering parameter estimation in this mixture of exponential m...
متن کاملModel - based clustering of functional data ∗
Model-based clustering for functional data is considered. An alternative to model-based clustering using the functional principal components is proposed by approximating the density of functional random variables. The EM algorithm is used for parameter estimation and the maximum a posteriori rule provides the clusters. Simulation study and real data application illustrate the interest of the pr...
متن کاملReprésentation et détection des émotions dans des dialogues enregistrés dans un centre d'appel. Des émotions complexes dans des données réelles
RÉSUMÉ. Les émotions complexes dans des contextes réels ont encore été peu étudiées. Dans ce papier, nous explorons comment représenter et automatiquement détecter le comportement émotionnel de sujets dans le contexte d’interactions orales Homme-Homme. Par rapport aux nombreuses études précédentes conduites sur des données artificielles, ce papier montre les défis auxquels on doit faire face lo...
متن کامل